【综述专栏】自动驾驶轨迹预测
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
01
自动驾驶中,轨迹预测一般位于感知模块的后端,规控的前端,为承上启下的模块。输入为感知模块提供的目标track的state信息、道路结构信息,综合考量高精地图信息、目标之间的交互信息,环境的语义信息及目标的意图信息,对感知到的各类目标做出意图预测(cut in/out、直行)以及未来一段时间的轨迹预测(0-5s不等)。如下图所示。
ADAS系统需要对周围环境信息有一定认知能力,最基本的水平是要识别环境,再上一层则需要理解环境,而再上一层则需要对环境进行预测。在对目标进行预测后,规控便可根据预测信息进行自车的路径规划,并做出决策对可能出现的危险情况进行制动或发出告警,这便是轨迹预测模块存在的意义所在。
02
轨迹预测可分为短期预测与长期预测。
短期预测一般根据运动学模型(CV/CA/CTRV/CTRA)基于当前的目标state信息预测未来一段时间的轨迹,一般<1s是合适的,如果时间过长,那目标仅与运动学相关的假设就不成立了。短期预测可以建一个运动模型专门去预测,同样的也可以使用前面感知模块滤波中的预测模块,只不过不调用测量进行滤波更新,这样的好处是可以传播不确定度。
长期预测是当前业界主要在做的。这种预测仅基于运动模型就不合适了,一般需要做意图预测,并结合一些上下文信息(地图、目标间交互信息)才能得到不错的结果。此时业界有很多不同的输出形式,比如输出轨迹的概率分布、输出多条预测轨迹、输出一条可能性最大的预测轨迹。
对于长期的轨迹预测有两个挑战:
输出一条可能的轨迹或者输出所有可能的轨迹都是不合理的。你输出一条预测轨迹就可能漏掉真正的轨迹,你输出所有可能的轨迹就会出现误报的情况,这对于ADAS系统均是不可接受的。应该考虑把预测轨迹限制在合适的子集中。
对轨迹预测做的越多就需要做更多的假设。极端一点的假设就是假定道路上的所有的目标都遵守交通规则。这如果用于交通模拟功能是合理的,但是对adas系统并不合适,他需要对潜在的危险情况保持敏感。
影响做长期轨迹预测的不确定性主要来源于三个方面:
感知模块输出的目标state估计的不确定。
驾驶意图预测的不确定性。
从意图识别完与车辆机动性改变中间的不确定性。
03
对轨迹预测系统应该考虑的四个问题:
轨迹预测要对潜在的危险有敏感性,这是轨迹预测存在的意义要求的。
既要考虑运行模型也要考虑意图与周围环境的信息。
考虑上述的不确定性。
考虑输出的轨迹数量问题。
04
如下图为bosch公司发表综述论文[2]中的分类方法。
如果按照使用模型的不同来分类,轨迹预测方法可以分为使用物理模型的方法、使用学习的方法、使用规划算法的方法。
如果按照使用的信息来分类,轨迹预测方法可以分为使用目标的信息的方法、使用环境中的动态目标信息的方法、使用静态环境信息的方法。
轨迹预测具体会涉及到哪些通用算法呢?
意图预测:模糊理论、static BNs、DBN(HMM、JumpMM)、DS证据理论、机器学习中的分类算法。
深度学习相关,端到端输出。CNN、LSTM、RNN、Attention。
那轨迹预测可以使用哪些具体信息呢?
目标信息:当前/历史的速度与位置信息,如果是行人轨迹预测的话,还可使用行人头的朝向、关节信息、性别与年龄信息以及人的注意力信息。
环境中的动态目标信息:social force、吸引力、群体约束信息。
静态环境信息:free space、map、语义信息(道路结构/交通规则/当前交通信号灯)。
当前学术界轨迹预测方面的论文越来越多,主要原因还是业界没有行之有效的方法。
以下列举业界论文:
BMW:物理模型+意图预测(learning-based)。使用启发式的方法集成专家知识,简化了交互模型,在意图预测的分类模型中加入了博弈论思想[3]。
1.首先做了场景拆分,分为了普通巡航道路以及路口两个场景。
2.而后对感知得到的目标做重要性划分,分为可以忽略的目标(不会影响到自车)、需要谨慎处理的目标(可能影响到自车)以及普通目标(介于二者之间)。
3.而后进入Evaluator,本质上就是一个意图预测。
4.最后进入predictor,用于预测轨迹生成。对于静止目标、沿道行驶、freeMove、路口等不同场景做不同的操作。
05
06
ADE为均一化欧式距离。
FDE为最终预测点之间的欧式距离。
MR为未中率。有很多不同的名字,主要就是设一个阈值,预测点迹之间欧式距离低于这个预测就记为命中,高于这个阈值就记为未命中,最后计算一个百分比。
概率度量:可以使用KL散度、预测概率、累积概率来作为概率度量。比如NLL, KDE-based NLL[17]。
任务层度量:评估轨迹预测对后端规控的影响(piADE,piFDE)[18]。
鲁棒性:要考虑在预测之前,观测到的部分轨迹的长度或持续时间;训练数据的size;输入数据采样频率和传感器噪声;神经网络泛化、过拟合及输入利用率分析;感知模块送入的输入如果有问题是否保证功能正常等等方面的因素。
效率:要考虑算力的。
07
(问题1)三种不同的轨迹预测方法:基于物理模型、基于学习、基于规划各自应用场景在什么地方,有什么优缺点呢?
基于物理模型的方法通过选择适当的转移方程,可以很容易地跨环境应用,而不需要训练数据,尽管一些用于参数估计的数据是有用的。在论文中,简单的CV模型也可产生合理的结果。 基于物理模型的方法很容易和target agent cues结合进行扩展。
这种显示建模的方法可能无法很好地捕捉现实世界的复杂性。 转移方程在空间与时间上缺乏全局信息,导致可能获得是局部最优解。
基于学习的方法可以潜在地处理所有类型的上下文信息,这些信息编码在收集的数据集中。他们中一些是map-based,另外一些可以用来对上下文信息进一步扩展。
需要在特定地点收集足够的数据,才能进行训练。 上下文信息扩展可能会导致involved learning、数据效率和泛化问题。 倾向于在非安全的关键组件中使用,在ADAS中比较在意可解释性,这是基于学习方法无法做到的。
如果满足以上两个条件,其比物理方法可以获得更好的精度,比基于学习的方法有更好的泛化能力。
传统的规划算法:Dijkstra、Fast Marching Method、optimal sampling-based motion planners会随着目标的数量、环境的大小、预测范围的增加而指数增长。 与基于物理的简单模型相比,基于上下文线索的规划方法(如逆向规划的奖励函数和正向规划的模型)的参数是琐碎的,通常更容易学习,但在推理方面,对于高维(目标)智能体状态,效率较低。
(问题2)轨迹预测的问题现在已经解决了吗?
基于物理模型与学习的方法可以在短时间(1-2s)有较高的精度。非常适用于人群的局部运动规划与碰撞避免。最简单的CV模型就对机器人的局部规划有很好的效果。如果考虑行人之间的交互以及因为机器人的存在对行人运动产生的影响,有好多种先进算法。 对于需要预测15-20s的去全局路径规划,有很大挑战。需求可以适当放松,而理解动静态上下文输入(长期来看影响运行、在环境地图上的推理、目标的意图推断)则变得十分重要。对于局部和全局路径规划,位置无关方法最适合在各种环境下预测运动。 当前机器人预测4.8s的ADE为0.19-0.4m的。简单的速度模型也可以达到0.53m的ADE。9s预测有1.4-2m的ADE。
大多数工作考虑的都是横穿马路的行人:开始走 继续走 停止走。 自行车:一个骑自行车的人在接近一个十字路口时,后面有多达五个不同的道路方向。
(问题3)当前衡量轨迹预测性能的评估技术是否足够好?
08
使用强化的上下文信息:可以使用更深层次的语义信息,这种语义信息应对静态环境有更好的理解。并且当前使用语义特征进行轨迹预测仍有待于开发 关于有social-aware的场景:①当前大多数方法假设所有被观察到的人的行为都是相似的,他们的运动可以由相同的模型和相同的特征来预测,而对高层次社会属性的捕捉和推理还处于发展的早期阶段。②大多数可行的方法基于的假设是人们之间的合作行为,而真实的人可能更倾向于优化个人目标,而不是联合策略,因此结合传统AI+博弈论的方法很有研究前途。 对于长期预测,上下文信息变得特别重要,因为要基于情境和周围环境考虑意图。当前许多基于学习的方法将个体视为粒子,用来学习转移信息,以决定未来运动的方向。而通过更多的通过意图驱动的预测来扩展这些模型,类似于人类目标导向的行为,将有利于长期预测。 大多数基于规划的方法依赖于一组给定的目标,这使得它们在没有事先知道目的地或可能目的地数量过高的情况下无法使用或不精确。这使得基于语义信息对目的终点进行自动推断变得重要。或者可以动态识别环境里面的可能目的地,并基于此进行轨迹预测。这样就可以在未知的环境里面使用基于规划的方法了。 现在的方法都是集中于解决某一类特定的任务,比如当环境中存在明显的运动模式时,或者当环境的空间结构和目标agent的目的地预先已知时。而轨迹预测方法需要能适应未定义的/不断变化的环境,并且可以处理突发情况。这就需要迁移学习以及一些应对新环境的方法,这种情况下,学习和推理基本的不变的规则,或者通用的行人行为或者碰撞避免是不合适的。领域自适应是可以用于学习泛化模型。 另外需要注意的方向:鲁棒性与可集成性。
1. Schreier M. Bayesian environment representation, prediction, and criticality assessment for driver assistance systems[J]. at-Automatisierungstechnik, 2017, 65(2): 151-152.
2. Rudenko A, Palmieri L, Herman M, et al. Human motion trajectory prediction: A survey[J]. The International Journal of Robotics Research, 2020, 39(8): 895-935.
3. Bahram M, Hubmann C, Lawitzky A, et al. A combined model-and learning-based framework for interaction-aware maneuver prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(6): 1538-1550.
4. Weidl G, Madsen A L, Kasper D, et al. Optimizing Bayesian networks for recognition of driving maneuvers to meet the automotive requirements[C]//2014 IEEE International Symposium on Intelligent Control (ISIC). IEEE, 2014: 1626-1631.
5. Zeng W, Liang M, Liao R, et al. LaneRCNN: Distributed Representations for Graph-Centric Motion Forecasting[J]. arXiv preprint arXiv:2101.06653, 2021.
6. Gao J, Sun C, Zhao H, et al. Vectornet: Encoding hd maps and agent dynamics from vectorized representation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 11525-11533.
7. Gilles T, Sabatini S, Tsishkou D, et al. HOME: Heatmap Output for future Motion Estimation[J]. arXiv preprint arXiv:2105.10968, 2021.
8. Zhao H, Gao J, Lan T, et al. Tnt: Target-driven trajectory prediction[J]. arXiv preprint arXiv:2008.08294, 2020.
9. Phan-Minh T, Grigore E C, Boulton F A, et al. Covernet: Multimodal behavior prediction using trajectory sets[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 14074-14083.
10. Rhinehart N, Kitani K M, Vernaza P. R2p2: A reparameterized pushforward policy for diverse, precise generative path forecasting[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 772-788.
11. Fang L, Jiang Q, Shi J, et al. Tpnet: Trajectory proposal network for motion prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 6797-6806.
12. Zhu Y, Qian D, Ren D, et al. Starnet: Pedestrian trajectory prediction using deep neural network in star topology[C]//2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2019: 8075-8080.
13. Sadeghian A, Kosaraju V, Sadeghian A, et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 1349-1358.
14. Alahi A, Goel K, Ramanathan V, et al. Social lstm: Human trajectory prediction in crowded spaces[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 961-971.
15. Huang Y, Bi H K, Li Z, et al. Stgat: Modeling spatial-temporal interactions for human trajectory prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 6272-6281.
16. Pan J, Sun H, Xu K, et al. Lane-Attention: Predicting Vehicles’ Moving Trajectories by Learning Their Attention Over Lanes[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020: 7949-7956.
17. Ivanovic B, Pavone M. The trajectron: Probabilistic multi-agent trajectory modeling with dynamic spatiotemporal graphs[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 2375-2384.
18. Ivanovic B, Pavone M. Rethinking Trajectory Forecasting Evaluation[J]. arXiv preprint arXiv:2107.10297, 2021.
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“综述专栏”历史文章
重磅发布 | 图像图形学发展年度报告综述专刊《中国图象图形学报》2022年第6期
IoU、GIoU、DIoU、CIoU损失函数的那点事儿
Transformers中稀疏自注意力综述,及其在视觉跟踪中应用(IJCAI2022)
Tesla AI DAY 深度分析 硬核!EP1 Tesla Vision
针对深度学习的GPU共享
从2022年的这几篇论文看推荐系统序列建模的趋势
CNN调优总结
大规模图神经网络系统综述
港科+清华+中科院+微软等——视觉-语言智能最新综述
元宇宙技术综述
中国医学影像人工智能20年回顾和展望
基于深度学习的深度图补全
回顾6年深度学习的算法实践和演进
基于图神经网络的推荐系统
高新波教授:人工智能未来发展趋势分析
更多综述专栏文章,
请点击文章底部“阅读原文”查看
分享、点赞、在看,给个三连击呗!